视觉语言预处理框架中的语言方式是天生离散的,在语言词汇中赋予每个单词是语义含义。相比之下,视觉方式本质上是连续和高维的,这可能禁止视觉和语言方式之间的对齐和融合。因此,我们建议通过联合学习一本赋予每个视觉令牌语义的代码手册来“离散”视觉表示。然后,我们利用这些离散的视觉语义作为自我监督的基础真相来构建我们的蒙版图像建模目标,这是蒙版语言建模的对应物,证明了语言模型成功。为了优化代码簿,我们扩展了VQ-VAE的配方,该配方提供了理论保证。实验验证了我们在常见视觉基准测试中的方法的有效性。
translated by 谷歌翻译
30天的医院再入院是一个长期存在的医疗问题,会影响患者的发病率和死亡率,每年造成数十亿美元的损失。最近,已经创建了机器学习模型来预测特定疾病患者的住院再入院风险,但是不存在任何模型来预测所有患者的风险。我们开发了一个双向长期记忆(LSTM)网络,该网络能够使用随时可用的保险数据(住院访问,门诊就诊和药物处方)来预测任何入院患者的30天重新入选,无论其原因如何。使用历史,住院和入院后数据时,表现最佳模型的ROC AUC为0.763(0.011)。 LSTM模型显着优于基线随机森林分类器,表明了解事件的顺序对于模型预测很重要。与仅住院数据相比,与住院数据相比,将30天的历史数据纳入也显着改善了模型性能,这表明患者入院前的临床病史,包括门诊就诊和药房数据是重新入院的重要贡献者。我们的结果表明,机器学习模型能够使用结构化保险计费数据以合理的准确性来预测住院再入院的风险。由于可以从网站中提取计费数据或同等代理人,因此可以部署此类模型以识别有入院风险的患者,或者分配更多可靠的随访(更近的后续后续,家庭健康,邮寄药物) - 出院后风险患者。
translated by 谷歌翻译
为了策划高质量的数据集,识别内部和外部来源之间的数据方差是一个基本和关键的步骤。但是,尚未显着研究检测数据移位或差异的方法。对此的挑战是缺乏学习DataSet的密集代表和在医疗机构分享私人数据的困难的有效方法。为了克服这些问题,我们提出了一个统一的管道,称为MedShift以检测顶级移位样本,从而促进医疗策序。给定内部数据集A作为基础源,我们首先为每类数据集A列车以以无人监督的方式学习内部分布。其次,在不交换跨源的情况下,我们在每个类的外部数据集b上运行训练的异常检测器。具有高异常分数的数据样本被识别为移位数据。为了量化外部数据集的换档,我们将B的数据基于所获得的分数群集分组。然后,我们通过逐渐删除每个类的最大异常分数来测量B的多级分类器并测量与分类器的性能方差的班次。此外,我们还调整数据集质量指标,以帮助检查多个医疗源的分布差异。我们验证了来自肌肉骨骼射线照片(Mura)和胸部X射线数据集的MedShift的疗效,来自多个外部源。实验表明我们所提出的移位数据检测管道对医疗中心有益,以更有效地策划高质量的数据集。一个接口介绍视频,可视化我们的结果可在https://youtu.be/v3bf0p1sxqe上获得。
translated by 谷歌翻译
在过去几年中,在医疗保健中使用人工智能(AI)已成为一个非常活跃的研究领域。虽然在图像分类任务中取得了重大进展,但实际上只能部署一些AI方法。目前积极使用临床AI模型的主要障碍是这些模型的可信度。这些复杂模型更常见,是一种黑色盒子,其中产生了有希望的结果。然而,当仔细检查时,这些模型开始在决策期间揭示隐式偏差,例如检测种族并对民族群体和群体具有偏见。在我们正在进行的研究中,我们开发了一个两步的逆势脱叠方法,部分学习可以减少种族差异,同时保留目标任务的性能。该方法已经在两个独立的医学图像案例研究 - 胸X射线和乳房X光检查中进行了评估,并在保持目标性能的同时表现出偏差减少的承诺。
translated by 谷歌翻译
Synthetic data offers the promise of cheap and bountiful training data for settings where lots of labeled real-world data for tasks is unavailable. However, models trained on synthetic data significantly underperform on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA involves perturbing the amplitude spectrums of the synthetic images in the Fourier domain to generate augmented views. We design PASTA to perturb the amplitude spectrums in a structured manner such that high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV to Real), object detection (Sim10K to Real), and object recognition (VisDA-C Syn to Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
translated by 谷歌翻译
尽管变压器已经开始在视力中占主导地位,但将它们应用于大图像仍然很困难。这样做的一个很大的原因是,自我发场的标记数二次缩放,而令牌数量又随图像大小而倍增。在较大的图像(例如1080p)上,网络中总计算的60%以上仅用于创建和应用注意矩阵。我们通过引入Hydra注意来解决这个问题,这是视觉变压器(VITS)的极有效的关注操作。自相矛盾的是,这种效率来自对其极端的多头关注:通过使用尽可能多的注意力头部,Hydra注意力在代币和没有隐藏常数的特征上是线性的,使其比标准自我注意力要快得多。在现成的VIT-B/16中,代币计数的一倍。此外,Hydra注意力保留了ImageNet上的高精度,在某些情况下实际上可以改善它。
translated by 谷歌翻译
我们提出了一种可扩展的方法,用于学习开放世界对象目标导航(ObjectNAV) - 要求虚拟机器人(代理)在未探索的环境中找到对象的任何实例(例如,“查找接收器”)。我们的方法完全是零拍的 - 即,它不需要任何形式的objectNav奖励或演示。取而代之的是,我们训练图像目标导航(ImagenAv)任务,在该任务中,代理在其中找到了捕获图片(即目标图像)的位置。具体而言,我们将目标图像编码为多模式的语义嵌入空间,以在未注释的3D环境(例如HM3D)中以大规模训练语义目标导航(Senanticnav)代理。训练后,可以指示Semanticnav代理查找以自由形式的自然语言描述的对象(例如,“接收器”,“浴室水槽”等),通过将语言目标投射到相同的多模式,语义嵌入空间中。结果,我们的方法启用了开放世界的ObjectNAV。我们在三个ObjectNAV数据集(Gibson,HM3D和MP3D)上广泛评估了我们的代理商,并观察到成功的4.2%-20.0%的绝对改进。作为参考,这些收益与2020年至2021年Objectnav挑战赛竞争对手之间成功的5%改善相似或更好。在开放世界的环境中,我们发现我们的代理商可以概括为明确提到的房间(例如,“找到厨房水槽”)的复合说明,并且何时可以推断目标室(例如,”找到水槽和炉子”)。
translated by 谷歌翻译
尽管算法公平最近取得了进步,但通过广义线性模型(GLM)实现公平性的方法论,尽管GLM在实践中广泛使用,但尚待探索。在本文中,我们基于预期的结果或对数类似物的均衡介绍了两个公平标准。我们证明,对于GLMS,这两个标准都可以通过基于GLM的线性组件的凸惩罚项来实现,从而允许有效优化。我们还得出了由此产生的公平GLM估计器的理论特性。为了从经验上证明所提出的公平GLM的功效,我们将其与其他众所周知的公平预测方法进行了比较,以用于二进制分类和回归的广泛基准数据集。此外,我们证明了公平的GLM可以为二进制和连续结果以外的一系列响应变量产生公平的预测。
translated by 谷歌翻译
视觉域的适应性(DA)试图将经过训练的模型转移到分发转移的未看到的,未标记的域,但是方法通常着重于适应卷积神经网络体系结构,并使用有监督的成像网表示。在这项工作中,我们将重点转移到将现代体系结构改编成对象识别的重点 - 越来越流行的视觉变压器(VIT)以及基于自我监督的学习(SSL)的现代预测。受到最新SSL方法的启发,该方法是基于通过掩盖或裁剪生成的部分图像输入的学习的 - 要么通过学习预测缺失的像素或学习代表性的不断增强来进行这种增强 - 我们提出了简单的两阶段适应性PACMAC自我监督VIT的算法。 PACMAC首先在汇总源和目标数据上执行内域SSL,以学习任务歧视性特征,然后探究该模型的预测一致性,这些歧视性的一致性是通过新的注意力条件掩盖策略生成的一组部分目标输入,以识别自我候选者的可靠候选者-训练。我们的简单方法导致对使用VIT和对标准对象识别基准的自我监督初始化的竞争方法的性能一致。可在https://github.com/virajprabhu/pacmac上找到代码
translated by 谷歌翻译
在建模重复的法院游戏时,许多过去的尝试都认为需求是静止的。这与现实世界的情景不一致,其中市场需求可以通过产品的一生以无数的原因来实现。在本文中,我们模拟了重复的Cournot游戏,不符合非静止需求,使得公司/代理人面临非静止多武装强盗问题的单独实例。代理可以选择的武器/行动代表离散生产量;这里,排序动作空间。代理商是独立和自主的,无法观察到环境中的任何事情;他们只能在采取行动后看到自己的奖励,只能努力最大化这些奖励。我们提出了一种新颖的算法对加权探索(AWE)$ \ EPSILON $ -GREEDY'的自适应,这些探索基于众所周知的$ \ epsilon $ -greedy方法远程。该算法检测和量化由于不同的市场需求而导致的奖励的变化,并与需求变化程度的程度不同,从而使代理能够更好地识别新的最佳动作。为了有效探索,它还部署了一种用于称重利用有序动作空间的动作的机制。我们使用模拟来研究市场上各种均衡的出现。此外,我们在系统中的总代理数量和行动空间的大小之间研究了我们的方法的可扩展性。我们在我们的模型中考虑对称和不对称的公司。我们发现,使用我们提出的方法,代理商能够根据需求的变化迅速改变他们的行动方针,并且在许多模拟中也从事契合行为。
translated by 谷歌翻译